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Beschreibunq 



Die vorliegende Erf indung betrif ft digitale Verfahren 
zur Verarbeitung von. Sprachsignalen Sie betrif ft insbe- 
sqndere Verfahren, die eine Erfassung von Stimmaktivitat 
anwenden, urn dif f erenzierte Verarbeitungen je nachdem 
durchzufuhren, ob das Signal eine Stimmaktivitat aufweist 
oder nicht. 

Die betreffenden digitalen Verfahren beziehen sich 
auf verschiedene Fachgebiete: Sprachcodierung fur die 
Ubertragung oder Speicherung oder Erkennung von Sprache, 
Verminderung von Rauschen, Echounterdriickung usw. 

Die Verfahren zur Erfassung von Stimmaktivitat haben 
als hauptsachliche Schwierigkeit die Unterscheidung zwi- 
schen der Stimmaktivitat und dem sie begleitenden Larm 
bzw. Rauschen.. Die Zuhilfenahme eines klassischen Rausch- 
unterdruckungsverf ahrens gestattet es nicht, diese 
Schwierigkeit zu behandeln, da diese Verfahren wiederum 
SchStzungen des Rauschens anwenden, die von dem Grad der 
Stimmaktivitat des Signals abhangeh. Dieses Problem ist^ 
beispielsweise in der Schrift US-A-565S622 beschrieben. 

Ein Hauptziel der vorliegenden Erf indung ist es, die 
Robustheit der Verfahren zur Erf assung . von Stimmaktivitat 
gegen Rauschen zu verbessern. Urn dieses Ziel zu errei- 
chen, wird ein Verfahreri gemafi den* Angaben in Anspruch 1 
vorgeschlagen . 

So schlagt die Erf indung ein Verfahren zum Erfassen 
von Stimmaktivitat in einem in auf einanderf olgenden 
Blocken behandelten digitalen Sprachsignal vor, bei dem 
das Sprachsignal einer Rauschunterdruckung unter Beruck- 
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sichtigung von Schatzungen des im Signal enthaltenen Rau- 
schens unterzogen wird, die fur jeden Block auf eine 
Weise aktualisiert werden, die von zumindest einem fur 
den betreffenden Block bestimmten Grad der Stimmaktivitat 
abhangt . Erf indungsgemaS wird eine apriorische Rausch- 
unterdruckung des Sprachsignals eines jeden Blocks auf 
der Grundlage von Schatzungen des Rauschens durchgef uhrt , • 
die bei der Behandlung von mindestens einem vorhergehen- 
den Block erhalten wurden, und die Variationen der Ene,r- 
gie des apriorisch rauschunterdruckten Signals analysiert 
werden, urn den Grad der- Stimmaktivitat des Blocks zu 
erfassen. 

Der Umstand, dafi die . Erf assung der Stimmaktivitat 
(gemaS. einem Verfahren, bei dem es sich im wesentlichen 
um jegliches bekannte Verfahren handeln kann) auf der 
Grundlage eines apriorisch rauschunterdruckten Signals 
durchgefuhrt wird, verbessert wesentliche die Leistungs- 
fahigkeit diieser Erf assung, wenn das Umgebungsrauschen 
relativ stark ist." 

In der Folge der vorliegenden Beschreibung wird das 
erf indungsgemaBe Verfahren zum Erfassen von Stimmaktivi-^ 
tat an einem System zur Rauschunterdruckung eines Sprach- 
signals veranschaulicht . Es ist ersichtlich, da£ dieses 
Verfahren Anwendungen in zahlreichen weiteren Arteri der 
digitalen Sprachverarbeitung f inden kann, bei denen es 
erwidnscht ist, uber eine Information bezuglich des Grades 
der Stimmaktivitat des verarbeiteten Signals zur verfii- 
gen: Codierung, Erkennung, Echounterdruckung usw. 

Weitere Details und Vorteile der vorliegenden- Erf in- 
ching ergeben sich aus der nachf olgenden Beschreibung von 
nicht-einschrankenden Ausfuhrungsbeispielen unter Bezug- 
nahme- auf. die beigefugte Zeichnung. 
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Es. zeigt : 

- Fig. 1 eine schematische Ubersicht eines Rausch- 
unterdriickungssystems, das die vorliegende Erfindung 
anwendet; 

- Fig. 2 und 3 Organigramme von Prozeduren, die durch 
einen Stimmaktivitatsdetektor des Systems von Fig. 1 
angewendet werden; i 

- Fig. 4 ein Diagramm, das die Zustande eines Automa- 
ten zur Erfassung von Stimmaktivitat darstellt; 

- Fig, 5 ein Diagramm zur Veranschaulichung der 
Variationen eines Grades der Stimmaktivitat; 

- Fig. 6 eine schematische Ubersicht eines Moduls zur 
Uberbewertung von Rauschen des Systems von Fig. 1; 

- Fig. 7 ein Diagramm zur Veranschaulichung der 
Berechnung einer Maskierungskurve ; und 

- - Fig. 8 ein Diagramm zur Veranschaulichung der 
Nutzving der Maskierungskurven in dem System von Fig. 1. 

Das in Fig. 1 dargestellte System, zur Rauschunter- 
druckung behandelt ein digitales Sprachsignal s. Ein Fen- 
sterbildungsmodul 10 bringt dieses Signal s in die Form 
von aufeinanderfolgenden Fenstern oder Blocken, die 
jeweils aus einer Anzahl N von Abtastproben eines digita- 
len Signals bestehen. Auf klassische Weise konnen diese 
Bl6cke gegenseitige Uberlappungen aufweiseii. In der nach- 
folgenden Beschreibung wird angenommen^ ohne da£ dies 
einschrankend g.edacht ist, daS die Blocke aus N = 256 
Abtastproben mit einer Abtastrate F e von 8 kHz bestehen, 
mit einer Hamming- Wichtung in jedem Fenster, und Uberlap- 
pungen von 50% zwischen aufeinanderfolgenden Fenstern. 

Der Signalblock wird durch ein Modul 11, das einen 
klassischen Algorithmus der schnellen. Fourier-Transforma- 
tion (TFR) fur die Berechnung des Moduls des Spektrums 
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des Signals anwendet, in den Frequenzbereich transfor- 
. ' rniert. Das Modul 11 liefert somit eine mit S n(£ bezeich- 
nete Gesamtheit von N « 256 Frequenzkomponenten des 
.' Sprachsignals, wobei n die Nummer des momentanen Blocks 
5 und f. eine Frequenz des diskreten Spektrums bezeichnet. 
Aufgrund der Eigenschaf ten der digitalen Signale im Fre- 
quenzbereich werden nur die N/2 = 128 ersten Abtastproben 
verwendet . 

10 Fur die Berechnung der Schatzungen des in dem Signal 

s enthaltenen Rauschens wird nicht die am Ausgang der 
schnellen Fourier-Transformation verfugbare Frequenzauf- 
losung verwendet, sondern eine schwachexe Auflosung, die 
durch eine Anzahl I von Frequenzbandern bestimmt ist, 

15 welche das Band [0, F e /2]. des Signals abdeckt . Jedes Band 
i (1 < i < I) erstreckt sich zwischen einer unteren Fre- 
quenz f(i-l) und einer oberen Frequenz f(i), wobei f(0) = 
0, und f (I) = F e /2. Dieses Zerschneiden in Frequenz bander 
kann gleichformig (f(i)-f(i-l) = F e /2I) sein. Es. kann 

20 auch nicht gleichformig sein (z.B, gemaB einer Barks- 
. Skala) . Ein Modul 12 berechnet die jeweiligen Mittelwerte 
der Spektralkomponenten S n#f des Sprachsignals pro Ban- 
dern, beispielsweise durch . eine gleichf drmige Wichtung 
wie etwa: 

25. • 

S n ,i = : — r ZS n ,f (1) 

f <i) - f (i - 1) f e [f (i-i),f(i)[ 

Diese Mittelwertbildung vermindert die Schwankungen 
. zwischen den Bandera durch Mitt ein der Beitrage des Rau- 
3 0 schens in diesen Bandern, wodurch die Varianz des Schat- 
zers des Rauschens. vermindert wird. Des weiteren gestatr 
. tet diese Mittelwertbildung eine starke Verringerung der 
Komplexitat des Systems. 
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Die gemittelten Spektralkomponenten S n ± 



werderi an 



ein Modul. 15 fur die Erfassung von Stimmaktivitat und an 
ein ■ Modul 16 zur Schatzung des Rauschens adressiert . 
Diese. beiden Module 15, 16 arbeiten insofern gemeinsam, 
als von dem Modul 15 fir die verschiedenen Binder gemes- 
sene Stimmaktivitatsgrade y n>i .von dem Modul 16 fur die 
Schatzung der Langzeitenergie des Rauschens in den ver- 
schiedenen Bandern verwendet werden, wahrend diese Lang- 
zeitschStzungen B ni von dem Modul 15 verwendet werden, 
urn eine apriorische Rauschunterdruckung des Sprachsigrials 
in den verschiedenen Bandern vorzunehmen, um die Stimm- 
aktivitStsgrade y n ^ zu bestimmen. 

Der Betrieb der Module 15 und 16 kann den in Fig. 2 
und 3 dargestellten Organigrammen entsprechen. 

In den Schritten 17 bis 20 fiihrt das Modul 15 die 
apriorische Rauschunterdruckung des Sprachsignals in den 
unterschiedlichen Bandern i fur den Signalblock n durch. 
Diese apriorische Rauschunterdruckung wird gemaS einem 
klassischen Vorgang zur nichtlinearen Spektralsubtraktion 
ausgehend von Schatzungen des Rauschens.. durchgef uhrt , 
welche bei einem oder mehreren vorausgegangenen Blocken 
erhalten wurden. In Schritt 17 berechnet das Modul 15 mit 
der Auflosung der Bandeir i . den Frequenzgang Hp nfi des 
Filters fur die apriorische Rauschunterdruckung gemaS der 
Formel: 



HPn,i = 



Sn,i ~ a'n-Ti,i ' B n - T i,i 
Sn-T2,i 



(2) 



wobei xl und x2 als Anzahl von Blocken ausgedruckte 
Verzogerungen sind (t1 £ 1, x2 > 0)., und a 1 ,,^, ein Koeffi- 
zient der Uberbewertung des Rauschens ist, dessen Bestim- 
mung weiter unten erlautert wird. Die • Verzogerung, xl kann. 
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festgelegt (z.B. tl = 1) oder auch variabel sein. Sie ist 
umso geringer, je starker man sich auf die Erfassung der 
Stimmaktivitat verlafit. 

In den Schritten 18 bis 20 werden die Spektralkompo- 
iienten Ep n ^ berechnet gemaB: 

E Pn,i = max { H Pn,i * S a/i . PPi * Bn-xl,i} (3) 

wobei ein Untergrenzenkoef f izient nahe 0 ist, der 

klassischerweise dazu dient zu vermeiden, daS das Spek- 
trum des entrauschten Signals negative oder ubermaSig 
schwache Werte annimmt, die ein musikalisches Gerausch 
hervorrufen vriirden. 

Die Schritte 17 bis 20 bestehen somit im wesentlichen 
darin, von dem Spektrum des Signals eine durch den Koef- 
fizienten a» n : T:ui majorierte Schatzung des apriorisch 
gesch&tzten Spektrums des Rauschens zu subtirahieren . 

In Schritt 21 berechnet das Modul 15 die Energie des 
apriorisch rauschunterdruckten Signals in den verschiede- 
nen Bandern i fur den Block n: E n#i . = Ep n i . Es berechnet 
auch . einen globalen Mittelwert E n/0 der Energie des 
apriorisch rauschunterdruckten Signals durch eine Summe 
der Energien pro Band E n>i , die 'mit den Breiten dieser 
Bandier gewichtet sind. In .den nachf olgenden Angaben wird 
der Index i *« 0 dazu verwendet, das globale Band des 
Signals zu bezeichnen. 

In den Schritten 22 und 23 berechnet das Modul 15 fflr 
jedes Band i . (0- £ i £ I) eine. GroSe AE n#i , welche fur die 
Kurzzeitvariation der Energie des entrauschten Signals im 
Band i steht, sowie einen Langzeitwert* E n ,i der Energie 
des entrauschten Signals im Band i. Die GrdSe AE n>i kann 
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berechnet werden durch eine vereinf achte- Ableitungs- 

E n -4,i + E n - 3/ j - E n -i,i ~ E n ,i 



formel: AE n ,i = ' — . Was die 

[ 10 

Langzeitenergie E n ,i betrifft, so kann diese mit Hilfe 

eines Vergessensf aktors Bl wie etwa 0 <* Bl < 1 berechnet 
5 werden, namlich E nf i = Bl • E n -i,i + (1 ~ B1 ) * En,i . 

Nach der Berechnung der Energien E n ± des rausch- 
unterdruckten Signals, seiner Kurzzeitvariationen AE n ti 
und seiner Langzeitwerte E nt i auf die in Fig. 2 angege- 

10 bene Weise berechnet das Modul 15 fiir jedes Band i (0 ^ i 
£ I) einen Wert p i; der fur die Evolution der Energie des 
rauschunterdruckten. Signals steht.. Diese Berechnung wird 
in den Schritten 25 bis 36 von Fig. 3 vorgenommen, die 
fur jedes Band i zwischen i=0 und i=I durchgefuhrt wer- 

15 den. Diese Berechnung wendet einen Larigzeitschatzer ba^ 
der Umhullenden des Rauschens, einen internen .Schatzer 
bii und einen Zahler bi fur verrauschte Blocke an. 

In Schritt 2.5. wird die Grofie AE n/i . mit einem Sehwell- 
20 wert el verglichen. Wenn der Schwellwert si nicht 
erreicht wird, wird der Zahler b L .in Schritt 26 urn eine 
Einheit inkrementiert . In Schritt 27 wird der Langzeit- 
schatzer ba i mit dem Wert der geglatteten Energie E n ,i 
verglichen. Falls . ba£ £ E n ",i'. wird der SchStzer ba£ 
25 gleich dem geglatteten Wert E n ,i * n Schritt 26 genommen, 
und der Zahler b L wird auf Null zuruckgesetzt , Die GroSe 
Pi,- die gleich dem Verhaltnis bai/E n ,i genommen wird 
(Schritt 36), ist somit gleich 1. 

30 Wenn. Schritt 27 ergibt, dafi bai < E n ,i, wird der Zah- 

ler b£ in Schritt 29 mit eihem Grenzwert bmax verglichen. 
Falls bi > bmax, wird angenommen, daS das Signal zu 
stationar ist, urn Stimmaktivitat zu unterstutzen. Darauf- 
hin wird der oben genannte Schritt 28 durchgefuhrt, der 

35 in der Annahme besteht, dafi der Block nur Rauschen 
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beinhaltet. Falls h± < bmax in Schritt 29, wird der 
interne Schatzer bii in Schritt 33 berechnet gemaS: 

bii = (1-Bm) - E n ,i + Bm ' ba i ' < 4 > 

In dieser Formel steht Bm fur einen zwischen 0,90 und 
1 liegenden Aktualisierungskoef f izieriten . Sein Wert ist 
je nach dem Zustand eines Automaten fur die Erfassung von 
Stimmaktivitat verschieden (Schritte 30 bis 32) Dieser 
Zusand 5 n-1 ist derjenige, der bei der Verarbeitung des 
vorherigen Blockes bestimmt wurde. Falls sich der Automat 
in einem Zustand der Erfassung von Sprache befindet (6 n-1 
= 2 in Schritt 30), nimmt der Koeffizient Bm einen Wert 
Bmp an, der sehr nahe bei l/liegt, damit der Schatzer des, 
Rauschens bei Vorhandensein von' Sprache. sehr geringfiigig 
aktualisiert wird.. Im entgegengesetzten Fall nimmt der 
Roeffizient Bm einen geringeren Wert Bms an, urn in einer 
Stillephase eine bedeutendere Aktualisierung des Schat- 
zers des Rauschens zu ermoglichen. In Schritt 34 wird der 
Abstand ba£ - bii zwischen dem Langzeitschatzer und dem 
internen Schatzer des Rauschens . mi t. einem Schwellwert e2 
verglichen. Wenn der Schwellwert E2 nicht erreicht wird, 
wird der Langzeitschatzer bai in Schritt 35 mit dem Wert 
des. internen Schatzers; bL L aktualisiert. Andernfalls 
bleibt der Langzeitschatzer ' ba^^ unverSndert . Es wird 
somit . vermieden, daE abrupte Variationen aufgrund eines 
Spirachsignals zu einer Aktualisierung des Schatzers des 
Rauschens fihren. 

Nach dem Erhalt der GroSen p A nimmt das Modul 15. die 
Entscheidungen der Stimmaktivitat in Schritt 37 vor. Das 
. Modul 15 aktualisiert zuerst den. Zustand des Erfassungs- 
. automaten gem^S der fur die Gesamtheit des Bandes des 
Signals berechneten GroSe p 0 . Der neue Zustand 5 n des 
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Automaten hangt von dem vorhergegangenen Zustand 6 n . 1 und 
von p 0 ab, wie in Fig. 4 dargestellt ist. 

Vier Zustande sind moglich: 6 = 0 ■ erf afit Stille bzw. 
5 Abwesenheit von Sprache; 8 = 2 erfafit das Vorhandensein 
eiher Stimmaktivitat und die Zustande 8 = 1 und 8 = 3 
sind dazwischenliegende Zustande des Anstiegs und Abfal- 
lens.' Wenn sich der Automat im Zustand von Stille (5 n , x = 
0) befindet, bleibt er dort, wenn p 0 nicht eine erste 

10 Schwelle SE1 ubeirsteigt,. und geht im entgegengesetzten 
Fall in den Anstiegszustand iiber. Im Anstiegszustand (8 n- 
x =1) kehrt er in den Zustand von Stille zuruck, wenn p 0 
kleiner als der Schwellwert SE1 ist, geht in den Zustand 
der Sptache uber, wenn p 0 grdfcer. als eine uber der 

15 Schwelle SE1. liegeride Schwelle' SE2 ist, und bleibt im 
Anstiegszustand, falls SE1 ^ p 0 £ SE2 . Wenn sich der 
Automat im Zustand der Sprache (5 n .! - 2) befindet, so 
bleibt er dort, falls p 0 eine unter der Schwelle SE2 lie- 
gende dritte Schwelle SE3 ist, und geht im entgegenge- 

.20 setzten Fall in den Abstiegszustand iiber . Im Abstiegs- 
zustand (5 n-1 = 3) kehrt der Automat in den Zustand der 
Sprache zuruck, falls de p 0 grSBer als der Schwellwert 
SE2 ist, kehrt in den Zustand der Stille zuruck, wenn p 0 
diesseits eines unter dem Schwellwert SE2 liegenden vier- 

25 ten Schwellwerts SE4 ist, und bleibt im Abstiegszustand, 
falls SE4 £ p 0 S SE2 . 

In Schritt 37 berechnet das Modul 15 des weiteren die 
Stimmaktivitatsgrade y n|i in jedem Band i > 1. Dieser 

30 Grad y n ± ist vorzugsweise ein nicht-binarer Parameter, 
d.h. die Funktibn y nfi = g(p A ) ist eine Funktion, die in 
Abhangigkeit von den durch die Grofie pi angenommenen Wer- 
ten kontinuierlich zwischen 0 und 1 variiert. Diese Funk-, 
tion besitzt beispielsweise den in Fig. 5 dargestellten 

35 Verlauf 
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Das Modul 16 berechnet die Schatzungen des Rauschens 
pro Band, die im Rauschunterdruckungsvorgang verwendet 
werden, unter Anwendung der auf einanderf olgenden Werte 
5 . der • Komponenten S n/i und der Stimmaktivitatsgrade y n#i . 
Dies entspricht den Schritten 40 bis 42 von Fig. 3. In 
Schritt 40 wird bestimmt, ob der Automat fur die Erf as- 
sung von Stimmaktivitat aus dem Anstiegszustand in den 
Zustand der Sprache ubergegangen ist. Falls , ja, werden 

10 die vorausgehend fur jedes Band i £ 1 berechneten beiden 
letzten Schatzungen B n _ a/i und B n -2,i gemSS dem vorausge- 
gangenen Schatzwert B n ^ 3#i korrigiert. Diese Korrektur 
wird durchgefiihrt , urn den Umstand zu berucksichtigen, daS 
in der Anstiegsphase (5 = 1) die Langzeitschatzungen der 

15 Energie des Rauschens in dem Vorgang fur die Erfassung 
von Stimmaktivitat (Schritte 30 bis 33) so berechnet wer- 
den konnten, als ob das Signal nur Rauschen beinhaltete 
(Bm = Brns), so daS- die Gefahr besteht, daS sie mit einem 
Fehler behaftet sind. 

20 

In Schritt 42 aktualisiert das Modul 16 die Schatzun- 
gen.. des Rauschens .pro Band gemas den Formeln: . 

. *n,i = *B./. B a . 1#i + (1 - X B > ' S n ,i <5) 

25 

•K,L = ?n,i'Vl,i +(I--r»,i);B n(i . * (6). . 

wobei- X B eihen Vergessensf aktor wie etwa 0 < X B < 1 . 
bezeichnet. Formel . (6) ' zeigt die Berucksichtigung des 
3 0 nicht-binaren Stimmaktivitat sgrades Y n ,i- 

Wie obenstehend angegeben wurde, sind die Langzeit- 
. schatzungen des Rauschens- B n #i Gegenstand einer Uber- 
bewertung durch ein Modul 45 (Fig. 1), bevor.die Rausch- 
3 5 unterdruckung mittels nichtlinearer Spektf alsubtraktion 
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vorgenommen wird. Das Modul 45 berechnet den oben genann- 
ten Koef f izienten der Uberbewertung a' n fi sowie eine 
majorierte Schatzung Bn ; i die im • wesentlichen <x f n,i * 
Bn ( i entspricht. 

Die Strukturierung des Uberbewertungsmoduls 45 ist in 
Fig. 6 dargestellt. Die majorierte SchStzung Bn,! wird 
erhalten durch Kombinieren der Langzeitschatzung B n#i und 
eines Mafies Ab!?*? der Veranderlichkeit der Rauschkompo- 
nente in dem Band i um seine Langzeitschatzung. Bei dem 
betrachteten Beispiel ist dieses Kombinieren im wesentli- 
chen eine einfache Summe, die von . einem Addierer 4 6 
erstellt wird. Es konnte sich hierbei auch um eine 
gewichtete Summe handeln. 

Der Uberbewertungskoef fizient ct'^i ist gleich dem- 
Verhaltnis zwischen der vom Addierer 46 gelieferten Summe 
B n(i + ABjJ*f und der verzogerten Langzeitschatzung B n _ t3 t 
(Teiler 47) , die nach oben hin durch einen Grenzwert 
beschrankt ist, beispielsweise = .4 (Block 48) ♦ Die 

: Verzogerung x3 . dient gegebenenf alls dazu, in den 
Anstiegsphasen (5 = 1) den Wert des Uberbewertungskoef fi- 
zienten cc' n ^ zu korrigieren, bevor die Langzeitschatzun- 
gen durch die Schritte 40 und- 41 von Fig. .3. korrigiert 
worden sind (z.B. x3 = 3) . 

Die majorierte . Schatzung. Bn,i wird schliefilich 
gleich a' n|i - B'n-x3 # i genommen (Multiplizierer 49) . 

Das Mafi ABl? 3 ? der Veranderlichkeit des . Rauschens 
ref lektiert . die Varianz des Schatzers des . Rauschens Es 
wird. in Abhangigkeit von den Werten von S nfi und von B n/i 
ftir eine best immte Anzahl von vorherigen Blocken- berech- 
net, an denen das Sprachsignal keine Stimmaktivitat in 
dem Band i aufweist. Es ist eine Funktion der fur eine 
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Anzahl.K von Blocken mit Stille (n-k < n) berechneten 
Abstande |s n -k,i - B n -k,i| ' In dem d^rgestellten Beispiel 
ist diese Funktion einfach dai3 Maximum (Block 50).. Fur 
jeden Block n wird der' Grad der Stimmaktivitat y n|i mit 
einem Schwellwert (Block 51) verglichen, urn zu entschei- 
den, ob der in 52-53 berechnete Abstand [s n ,i - B n ,i| in 
eine Warteschlange 54 mit K Stellen geladen werden mufi, 
die im Ersteirigang/Erstausgang-Modus . (FIFO) organisiert 
ist. Falls y n#i den Schwellwert nicht iibersteigt (der 
gleich 0 sein kann, falls die Fuunktion g() die Form vori 
Fig. 5 besitzt) wird die FIFO nicht versorgt, wahrend 
sie es im entgegengesetzten Fall wird. Der in der FIFO 54 
enthaltene Maximalwert wird dann als MaS AB™* der Veran- 
derlichkeit geliefert. 

Das MaS AbSJ*? der Veranderlichkeit kann als Variante . 
in Abhangigkeit von den Werten S nff (anstatt S n#i ) und 
B„* 4 erhalteh werden. AnschlieEend wird auf die. gleiche 
Weise, mit der . Ausnahme, dafc die FIFO 54 |s n -k,i ~ Bn-k,i| 
nicht enthalt, . vorgegangen, • jedoch eher 

max lc « I 

f €[f(i-l),f<i)[| Sn - k ' f " B n-k,i|- 

Aufgrund der. unabhangigen Langzeitschatzungen der 
Schwankungen des Rauschens B n#i . und seiner Kurzzeitverari- 
derlichkeit AB^f stellt der majorierte Sch&tzer B n ,i 
eine ausgezeichnete. Robustheit des Rauschunterdriickungs- 
verfahrens gegen musikalische Gerausche zur Verfugung. 

Eine erste Phase der' spektralen Subtraktion wird 
durch das in Fig. 1 dargestellte Modul 55 verwirklicht . 
Diese Phase liefert vor der Auf losung der Bander i (1 < i 
£ I) den Frequenzgang hJ A eines ersten Rauschunter- 
. druckungsfilters in Abhangigkeit von den Komponenten S nfi 
und B n fi und den Uberbewertungskoef f izienten <x' n#i . Diese 
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Berechnung kann .fur jedes Band i durchgefuhrt werden 
gemaE der Forme 1: 

max{sn,i-a'n,i\Bn,i'Pi-B i) 
H l = : ( 7 ) 

wobei t4 eine als x4 > 0 (z.B. x4 = 0) bestimmte ganz- 
zahlige Verzogerung ist. In dem Ausdruck (7) stellt. der 
Koeffizient pj wie der Koeffizient jJpi der Formel • (3) 
eine Untergrenze dar, die klassischerweise zur Vermeidung 
von negativen oder zu ' kleinen Werten des rauschunter- 
druckten Signals dient.' 

Auf bekannte Weise- (EP 0 534 837) konnte der Uberbe- 
wertungskoef fizient . a f n#i in der Formel (7) durch einen 
anderen Koef f izienten ersetzt werden, der gleich einer 
Funktion von ot' ni und einer Schatzung des Rauschabstan- 
des (z.B. S n/i /B nfi ) ist, wobei diese Funktion gemaS dem 
SchStzwert des Rauschabstandes abnehmend ist. Diese Funk- 
tion ist somit gleich a' n>i fur die kleinsten Werte des 
Rauschabstandes. Wenn das Signal stark . verrauscht ist, 
ist es namlich a priori nicht sinnvoll, den Uberbewer- 
tungsfaktor zu .vermindern. Vorteilhaft nimmt diese Funk- 
tion fur die hochsten Werte des Rauschabstandes gegen 
Null hin ab. Dies ermoglicht einen Schutz der energie- 
reichsten Zonendes Spektrums, in denen das Sprachsignal 
am bedeutendsten ist, wobei die von dem Signal zu subtra- 
hierende GroSe somit gegen Null tendiert. 

Diese Strategie kann verfe inert werden, indem sie 
selektiv auf die Harmonischen der Tonfrequenz ( "pitch" ) 
des Sprachsignals. angewendet wird, wenn dieses eine 
Stimmaktivitat aufweist. . 
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Somit wird bei der in Fig. 1 dargestellten Ausfuh- 
rungsfortn eine zweite Phase der Rauschunterdriickung durch 
ein Modul ' 56 zum Schutz der . Harmonischen durchgef iihrt . 
Dieses Modul berechnet. mit der Auflosung der ' Fourier- 
5 Trans fprmierung den Frequenzgang h£ f eines zweiten 
Rauschunterdruckungsf ilters in Abhangigkeit von den Para- 
metern H^ if a'^i, B n/i , 5 n , S n#i und der auSerhalb der 
Stillephasen durch ein Modul ftir die harmonische Analyse 
57 berechneten Tonfrequenz f p = F^/T p . In einer Stille- 

10 phase (5 n = 0) ist das Modul 56 nicht in Betrieb, d.h. 
H^. f = ^n,i fiir jede Frequenz £ eines Bandes i. Das Modul 
57 kann jegliches- bekannte Verfahren fur die. Analyse des 
Sprachsignals des Blocks anwenden, urn die Periode T p zu 
bestitrimen, die als ganze Zahl oder Bruchteil von Abtast- 

15 proben angegeben wird, z.B.' ein lineares Pradiktionsver- 
fahren. 



20 



Der durch das Modul 56 zur Verfiigung gestellte Schutz 
kann darin bestehen, daS fur jede zu einem Band . i gehori- 
ge Frequenz f durchgef iihrt wird: 



H£.f - 1 falls 



Sn.i a' h( i B n ,i>Pi ' B n j 



und ganzzahliges 3t] / f - tj • f p . S Af / 2 



(8) 
(9) 



andernfalls H^ f = H^ f - 



Af = F e /N stellt die spektrale Auflosung der Fourier- 
Transformation dar. Wenn H^ f » 1, ist die von der Kompo- 
25 nente S n ^ f zu substrahierende GroSe Null. In dieser 
Berechnung drucken die Untergrenzenkoef f izienten P? (z.B. 

= pi) den Urns tand aus, daS bestimmte Harmonische der 
Tonfrequenz f p von Rauschen maskiert sein kdnnen, so daS 
es nicht * sinnvoll ist, sie zu schiitzen. 
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Diese Schutzstrategie wird vorzugsweise fur jede der 
Frequenzen angewendet, die am nachsten zu den Harmoni- 
schen von f p sind, d.h. auf jedes ganzzahlige r|. 

Wenn man mit 6f p die Frequenzauf losung bezeichnet, 
bei der das Analysemodul 57 die geschatzte Tonfrequenz f p 
erzeugt, d.h. daS die reelle Tonfrequenz zwischen f p - 5 
fp/2 und f p + 8f p /2 liegt, dann kann der Abstand zwischen 
der T]-ten Harmonischen der reellen Tonfrequenz und ihrer 
Schatzung Tixf p (Bedingung. (9))* bis ±nx8f p /2 gehen. Bei 
hohen Werten von t\ kann dieser Abstand groSer als die 
halbe spektrale Auflosung Af/2 der Fourier-Transf ormier- 
ten seia. Urn diese Unsicherheit zu beriicksightigen und 
einen guten Schutz der Harmonischen der reellen Tonfre- 
quenz zu gewahrleisten, kann jede der Frequenzen des In- 
tervalls [t| x f p - T] x 8 f p ./ 2 , ti x f p + i\ x 5 f p / 2] 

geschutzt werden,. d.h. die obenstehende Bedingung (9) 
kann ers.etzt werden durch: • 

ganzzahliges 3r\ / |f - -q • f p | < [t] - 8 f p +' Af ) / 2 (9 ' ) 

Diese Schutzart (Bedingung 9 1 ) ist von besonderem 
Interesse, wenn. die Werte vori t] groS sein konnen, insbe- 
sondere falls das Verfahren in .einem Breitbandsystem ver- 
wendet wird. 

Fur jede geschiitzte Frequenz kann der korrigierte 
Frequenzgang HJ* f gemaB der obenstehenden Angabe gleich 1 
sein, was der Substraktion einer GroSe Null im Rahmen der 
spektralen Subtraktion entspricht, d.h. einem kompletten 
Schutz der betreffenden Frequenz. Allgemeiner gesagt, 
dieser korrigierte Frequenzgang h£ £ kdnnte je nach dem 
gewunschten Schutzgrad gleich einem zwischen 1 utid H^£ 
liegenden Wert genommen werden, was der Subtraktion einer 
GrdBe entspricht, die kleiner als diejenige ist, die zu 
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subtrahieren ware, wenn die betreffende Frequent nicht 
geschutzt ware. 

Die' Spektralkomponenten s£ ff eines rauschunterdriick- 
5 ten Signals werden durch einen Multiplizierer 58 berech- 
net : 

s£,f = H * #£ - S n ,ff (10) 

10 Dieses Signal • S^ f wird an ein Modul 60. geliefert, 

das fur jeden Block n eine Maskierungskurve berechnet 
durch Anwenden eines psychoakustischen Modells der Gehor- 
wahrnehmung durch das menschliche Ohr. 

15 ' Das Phanomen der Maskierung ist ein von der Funktion 
des tnerischlichen Ohrs her bekanntes Prinzip. Wenn zwei 
Frequenzen gleichzeitig gehSrt werden, ist es moglich, 
dalS eine von den beiden nicht mehr horbar ist. Man sagt 
dann, daS diese maskiert ist. 

20 

Es gibt verschiedene Verf ahrensweisen fur die Berech- 
nung der Maskierungskurven. Beispielsweise kann die von 
J.D. Johnston ("Transform Coding of Audio Signals Using 
Perceptual Noise Criteria" , IEEE Journal on Selected Area 

25 in Communications, Vol. 6, Nr. 2, Februar ±988) ent- 
wlckelte angewendet werden. Bei dieseir Verf ahrensweise 
wird in der Frequenzskala der Barks gearbeitet. Die Mas-, 
kierungskurve wird.als die Faltung der Funktion der spek- 
. tralen Dehnung der Basilarmembran im Bark-Bereich mit dem 

30 anregenden Signal betrachtet,. bestehend in der vorliegen- 
den Anwendung aus dem Signal s£ #f . Die spektrale Deh- 
nungsfunktion kann auf die in Fig; 7 dargestellte Weise 
modelliert werden. FUr jedes. Bark-Band wird der Beitrag 
der in Betracht gezogenen niederen und hohen Bander durch 

35 die Funktion der Dehnung der Basilarmembran berechnet:" 
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wobei die Indices q und q' die Bark-Bander (0 ^ q^q 1 
5 < Q) bezeichnen, und s£,qt fur den Mittelwert der Kompo- 
nenten s£ f des rauschunterdruckten Anregungssignals fur 
die diskreten Frequenzen f steht, die zum Bark-Band q* 
gehoren. 

10 Der Maskierungsschwellwert M D/q wird erhalten durch 

das Modul 60 fiir Bark-Band q gemafc der Formel: 

M n ,q = C n , q /R q (12) 

15 in der R q von dem mehr. oder minder stimmhaften Cha- 

rakter des Signals abhangt. Auf bekannte Weise ist eine 
mogliche Form yon R q : 



20 



10.1og 10 (R a ) = (A+q). • x + B • (1 -.%) (13) 



wobei A = 14,5 und B = 5,5. x bezeichnet einen Stimm- 
haf tigkeitsgrad des Sprachsignals, der zwischen Null 
(keine Stimmhaf tigkeit) und 1 (stark stimmhaftes Signal) 
variiert. Der Parameter x kann die bekannte Form aufwei- 
25 sen: 



X = min^ 



SFM 



max 



SFM . , - (l 



wobei' SFM in Dezibel das Verh&ltnis zwischen dem 
30 arithmetischen Mittel und dem. geometrischen Mittel der 
Energie der Bark-Bander angibt, und SFM max .= -60 dB. 
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Das Rauschunterdruckungssystem weist dariiber hinaus ■ 
ein Modul 62 auf , das den Frequenzgang des Rauschunter- 
driickungsf ilters in Abhangigkeit von der. durch das Mbdul * 
60 befechneten Maskierungskurve M n . q und den durch das 
Modul 45 berechneten majorierten Schatzungen korrigiert. 
Das . Modul 62 entscheidet uber . das Rauschunterdriickungs- 
niveau, das tatsachlich erzielt werden soil. 

Durch eihen Vergleich der Umhullenden der majorierten 
Schatzung des Rauschens mit der durch die Maskierungs- 
schwellwerte M^g gebildeteh Umhullenden wird entschie- 
den, das Signal nur in dem Mafie zu entrauschen, in dem 
die majorierte Schatzung B n,i die Maskierungskurve iiber- 
steigt. Dies vermeidet eine nutzlose Unterdriickung von 
durch Sprache maskiertem Rauschen. 

Die neue Antwort f fur eine zu dem Band i geho- 
rende Frequenz. f , die durch das Modul 12 und im Bark-Band 
q definiert wird, hangt . somit von dem relativen Abstand 
zwischen. der majorierten Schatzung B' n/i der entsprechen- 
den Spektralkomponente des Rauschens und* der Maskierungs- 
kurve M ni q- f olgenderma&en ab: 

*ht = 1 " t 1 " H Lf) '. maK 

Anders ausgedruckt, die bei dem Vorgang der Spektral- 
subtraktidn mit dem Frequenzgang H^ (f yon einer .Spektral- 
komponente S n/f ,. zu subtrahierende Gr6fie ist im wesentli- 
chen. gleich dem Minimum zwischen der bei dem Vorgang. der 
Spektralsubtraktion mit dem Frequenzgang H^ f von dieser 
Spektralkomponente zu • subtrahierenden GroBe. einerseits 
und dem Bruchteil der: majorierten Schitzung B' n ,i der 
entsprechenden Spektralkomponente des Rauschens anderer- 
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seits, die gegebenenf alls die Maskierungskurve M n ^ q iiber- 
steigt . 

Fig. 8 veranschaulicht das Prinzip der durch das 
5 Modul 62 angewendeten Korrektur. Sie zeigt schematisch 
ein Beispiel fur eine auf der Grundlage der Spektral- 
komponenten sj f . des rauschunterdruckten Signals sowie 
der majorierten SchStzung B' ni des Spektrums des Rau- 
schens berechnete Maskierungskurve M n#q . Die schliefilich 
10 von den Komponenten S n#f zu subtrahierende GroSe ist die 
durch die schraf f ierten Bereiche dargestellte, d.h. die- 
jenige, die auf den Bruchteil der majorierten Schatzuhg 
^'n/i der Spektralkomponenten des Rauschens, das die Mas- 
kierungskurve ubersteigt, begrenzt ist. 

15 

Diese Subtraktion * wird durch Multiplizieren des Fre- 
■ quenzgangs H^ /f des Rauschunterdruckungsf ilters mit den 
Spektralkomponenten s n,f ' des Sprachsignals 

(Multiplizierer 64) durchgef uhrt . Ein Modul 65 rekonstru- 
20 iert sodann das rauschunterdriickte Signal im Zeitbereich 
. mittels . Durchfuhrung der schnellen inversen . Foutier- 
Trans formierung (TFRI) der vom Multiplizierer 64 gelie- 
ferten Abtastproben der Frequenz Sn,f • Bei 3 edem Block 
werden einzig die N/2 = 128 ersten Abtastproben des durch 
25 das Modul 65 erzeugten Signals als endgultiges rausch- 
unterdrucktes Signal s 3 geliefert, nach Rekonstruktion 
. mittels Addition-Uberlappung • mit . den N/2 = 128 letzten 
Abtastproben des vorangegangenen Blocks (Modul 66) . 
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Anspruche 



1. Verfahren zum Erfassen von Stimmaktivitat in einem in 
aufeinanderfolgenden Blocken behandelten digitalen 
Sprachsignal (s) , bei dem das Sprachsignal einer 
Rauschunterdriickung unter Beriicksichtigung von Schat- 
zungen des. im Signal enthaltenen Rauschens unterzogen 
wird, die fur jeden Block auf eine Weise aktualisiert 
werden, die von zumindest einem fur den betreffenden 
Block bestimmten Grad der Stimmaktivitat (Y n ,i> 
abhangt, dadurch gekennzeichnet , dafi eine apriorische 

. Rauschunterdriickung des Sprachsignals ■ eines jeden 
Blocks auf der Grundlage von Schatzungen des Rau- 
schens durchgefiihrt wird, die bei der Behandlung von 
mindestens einem vorhergehenden Block erhalten wur- 
den, und die Variationen der Energie des apriorisch 

• rauschunterdrilckten Signals analysiert werden, urn den 
Grad der Stimmaktivitat des Blocks zu erfassen. 

2. Verfahren nach Anspruch 1,. bei, dem der Grad der 
Stimmaktivitat (y^i* ein . nicht-binarer Parameter 
ist. • • . 

3. Verfahren nach Anspruch 2, bei dem der Grad der 

* Stimmaktivitat (y n . ti ) eine standig zwischen 0 und 1 
. variierende Funktion ist . 

4. Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem die Schatzungen des Rauschens in verschiede- 
nen Frequenzbahdern des Signals erhalten werden, die 
apriorische Rauschunterdriickung Band fur Band durch- 
gefiihrt wird, und ein Grad der Stimmaktivitat (y n# i) 
fur jedes Band bestimmt wird. 
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5. Verfahren nach einem der vorhergehenden Anspriiche, ... 
bei dem eine Schatzung des Rauschens B n ± fur den . 
Block n in einem Frequenzband i in der Form . 

Bn,i. = Y n ,i * B n-l,i + (1 " Yn,i> * B n ,i 
mit Bn ( i = * B n . 1(i + (1 " X B ) • S n#i 
erhalten wird, 

wobei A. B ein zwischen 0 und 1 . liegender Vergessens- 
faktor ist, Yri,i der fur den Block n im Frequenzband 
i bestimmte Grad 'der- Stimniaktivitat ist, und S n> i ein 
Mittelwert der Amplitude des Spektrums des Sprach- 
signals des Blocks n im Band i ist . 

6. Verfahren nach Anspruch 5,. bei dem das apriorisch 
rauschunterdruckte Signal Ep n i bezuglich eines 
Blocks n und eines Frequenzbandes i die Form auf- 
weist: 

Ep n#i = max{Hp n i • S n ,i , pPi ' B n -ti,i} 

wobei H Pn ± = Sn ^"^i-'Bn^i t i | Tl e . ne gan2e 

S n - T2( i. 

Zahl von mindestens gleich 1 ist, t2 eine ganze Zahl 
von mindestens gleich 0 ist, otn- T i,i e * n f^r den 

Block n-xl und das Band i bestimmter Oberbewertungs- 
koeffizient ist, und ppi ein positiver Koeffizient 
' ist. 

7. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem eine Langzeit schatzung (E n ,i) der Energie des 
apriorisch rauschunterdruckten Signals (Ep ni ) 
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berechnet wird.und diese Langzeitschatzung mit einer 
an dem betreffenden Block ; berechnet en, momentanen 
Schatzung (ba) dieser Energie verglichen wird, urn den 
Grad der Stimmaktivitat (y nti ) des Blocks zu erhal-- 
ten. 

8. Stimmaktivitat-Erfassungseinrichtung mit einer zum 
Durchfuhren eines Verfahrens nach einem der yorher- 
gehenden Anspriiche konzipierten Behandlungseinrich- 
tung . 
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